深度Q-学习
Back to Home
01. 深度 Q 学习简介
02. 神经网络作为值函数
03. 蒙特卡洛学习
04. 时间差分学习
05. Q 学习
06. 深度 Q 网络
07. 经验回放
08. 固定 Q 目标
09. 深度 Q 学习算法
10. DQN 改进
11. 实现深度 Q 学习
12. TensorFlow 实现
13. 总结
Back to Home
10. DQN 改进
DQN 改进
阅读延伸
Thrun 和 Schwartz,1993 年,
《使用函数逼近进行强化学习存在的问题》
( 高估 Q 值)
van Hasselt et al.,2015 年,
《双 Q 学习的深度强化学习》
Schaul et al.,2016 年,
《优先经验回放》
Wang et al.,2015 年。
《深度强化学习的对抗网络架构》
。
Hausknecht 和 Stone,2015 年,
《部分可观察 MDP 的深度递归 Q 学习》
Next Concept